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摘要 肉 入 式 和 可 穿戴 设备 正 普及 大 众 ， 各 类 传感器 已 可 对 用 户 敏 感 数 据 采集 ， 无 处 不 在 的 互联 网 和 普及 的 云 计 
算 以 及 存储 设施 ， 也 使 得 传输 和 管理 这 些 数 据 变 得 越 来 越 容 易 ， 深 度 学 习 等 模型 也 开始 充分 挖掘 这 些 数 据 的 价 
值 ; 然而 数据 从 一 开始 作为 原材料 ， 到 最 后 成 为 产品 提供 给 用 户 ， 其 中 需要 经 历 一 系列 的 加 工 和 增值 过 程 ， 在 此 


过 程 中 经 济 因素 将 成 为 最 大 的 推动 力量 。 文 章 讨论 了 数据 


资本 化 的 问题 ， 在 此 过 程 中 要 推动 从 数据 到 数据 产品 的 


价值 链 ， 很 多 关键 的 经 济 问题 需要 考虑 ， 其 中 核心 问题 包括 数据 作为 资产 的 定价 问题 ， 以 及 隐私 保护 等 。 


关键 词 数据 资产 化 ， 数 据 定价 ， 隐 私 保护 
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计算 技术 和 能 力 已 经 完全 普 适 化 ， 对 数据 的 观察 和 
整合 、 分 析 和 解释 ， 正 在 不 断 创造 新 的 知识 ， 推 动 着 科学 
技术 的 进步 和 社会 的 发 展 。 授 入 式 和 可 穿戴 设备 正 普及 大 
众 ， 各 类 便携 传 感 融 已 可 对 用 户 敏 感 数 据 进 行 采集 ， 如 智 
能 手机 包含 了 GPS 、 加 速度 计 、 距 离 及 光线 传 感 需 、 摄 像 
头 、 陀 螺 仪 、 指 纹 传感器 ， 甚 至 还 包含 心率 监测 需 等 数据 
采集 和 感知 设备 。 无 处 不 在 的 互联 网 和 普及 的 云 计 算 、 存 
储 设施 ， 也 使 得 传输 和 管理 这 些 所 采集 数据 变 得 越 来 越 容 
易 。 对 这 些 所 采集 数据 可 从 两 个 方面 进行 利用 : 人 建立 
数据 的 统计 模型 以 帮助 公共 和 私人 部 门 了 解 社会 运行 各 方 
面 的 整体 情况 ， 如 流行 病 的 早期 检测 ; @ 从 微观 层面 提 
供 个 性 化 服务 ， 如 对 每 个 居民 提供 产品 和 服务 推荐 。 


修改 稿 收 到 日 期 : 2018 年 8 月 17 日 


在 深度 网 络 出 现 之 前 ， 机 需 学 习 横 型 无 需 大 量 训 
练 数据 ， 就 算 有 更 多 数据 ， 模 型 也 不 能 训练 得 更 好 ( 模 
型 进入 saturation 状态 ) 中 ; 而 对 深度 网 络 来 说 ， 因 为 其 
足够 深 ， 需 要 训练 的 参数 足够 多 ， 所 以 它 对 数据 是 饥饿 
的 一 一 当 数据 越 多 的 时 候 ， 能 构建 的 网 络 就 越 深 ， 其 性 
能 就 越 好 ， 这 是 大 数据 的 作用 。 如 今 ， 这 种 以 大 数据 + 深 
度 神经 网 络 为 代表 的 人 工 智 能 技术 ， 正 在 深远 地 影响 着 
社会 生活 的 各 个 方面 。 而 数据 作为 一 种 原材料 ， 通 过 数 
据 分 析 建 模 的 加 工 挖掘， 能 产生 新 的 价值 ， 已 成 为 新 的 
生产 力 来 源 和 资产 。 

众多 案例 已 展示 了 数据 的 应 用 价值 ， 然 而 一 个 技 
术 要 深刻 地 推进 社会 发 展 ， 它 需要 从 具有 应 用 价值 发 展 
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为 具有 应 用 + 经 济 的 双重 价值 。 从 经 济 价值 的 眼光 来 看 
大 数据 ， 我 们 可 以 看 到 所 谓 的 “数据 ”在 整 条 价值 链 上 
处 在 起 点 的 位 置 。 数 据 从 一 开始 作为 原材料 ， 到 最 后 成 
为 产品 提供 给 用 户 ， 其 中 经 历 了 一 系列 的 加 工 和 增值 过 
程 ， 包 括 清 理 外 、 语 义 化 中 、 融 合 V、 分 析 "、 建 模 申 、 知 
识 提 取 "、 应 用 ""、 分 发 中 等 关键 步 怠 ， 如 同一 个 工业 
产品 ， 从 原材料 到 最 终 产 品 形态 再 到 市 场 ， 是 一 个 复杂 
的 价值 链 ， 需要 精巧 的 协同 工作 。 而 在 目前 大 部 分 的 大 
数据 研究 中 ， 关 注 点 还 仅 停留 于 这 些 具体 过 程 的 技术 基 
础 ， 我 们 相信 上 随 着 整个 生态 环境 的 建立 ， 每 个 步骤 背后 
的 经 济 因 素 将 成 为 最 大 的 推动 力量 。 


1 数据 资产 化 中 的 隐私 保护 


在 数据 资产 化 过 程 中 ， 隐 私 保 护 成 为 关键 问题 。 
数据 所 有 权 和 隐私 权 问 题 长 期 以 来 都 是 信息 产业 的 核心 
问题 "。 隐 私 可 视 为 用 户 对 信息 流通 程度 和 方式 的 控制 
权 。 传 统 隐私 保护 研究 较 关 注 访问 控制 及 数据 发 布 前 去 
除 个 人 信息 ， 并 防止 多 个 数据 源 融 合 之 后 恢复 所 去 除 的 
个 人 信息 。 而 随 着 大 数据 、 移 动 采集 设备 和 机 器 学 习 等 
技术 发 展 ， 在 数据 收集 阶段 进行 隐私 保护 ， 是 面临 的 一 
个 新 间 题 。 

由 于 数据 对 于 构建 高 效 模型 越 来 越 重 要 ， 数 据 收 
集中 的 隐私 保护 应 处 在 一 种 权衡 取舍 状态 。 解 决 隐 私 保 
护 问 题 ， 并 不 能 将 其 孤立 地 看 待 ， 而 是 应 该 放 在 一 个 更 
大 的 框架 中 ， 即 在 用 户 的 隐私 权利 和 从 用 户 数据 中 获得 
服务 与 资源 之 间 进 行 权 衡 取舍 ， 使 之 在 当前 情境 达到 最 
优 。 因此， 需要 建立 一 个 能 支持 多 方 双赢 的 隐私 保护 机 
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收集 该 用 户 数据 。 以 移动 应 用 为 例 ，91% 的 IOS 应 用 程 
序 和 83% 的 Android 应 用 程序 存在 至 少 一 种 泄露 用 户 隐 私 
的 风险 行为 0]。Facebook 、Apple 、Twitter 、Yelp 、Path 等 
公司 都 曾 因 被 指控 发 布 侵犯 隐私 的 移动 应 用 程序 而 成 为 
诉讼 的 焦点 "。 

应 用 程序 ( 特别 是 移动 应 用 ) 往往 将 数据 收集 信息 
( 如 类 型 、 数 量 ) 描述 的 暧昧 不 明 ， 虽然 数据 收集 通常 
会 在 最 终 用 户 协 议 中 被 提 及 ( 如 在 Apple App Store 中 ) 
但 用 户 通常 并 不 会 阅读 这 些 宛 长 文档 ， 而 直接 选择 同意 
该 条 款 。 况 且 最 终 用 户 协议 中 的 许可 声明 往往 语 融 不 
详 ， 且 具 误 导 性 ， 实 际 中 却 大 量 收集 用 户 敏感 数据 。 而 
且 数据 收集 的 隐私 保护 并 不 是 一 个 有 或 无 的 问题 "2 ， 而 
是 一 个 程度 问题 。 尽 管 部 分 应 用 程序 商店 (如 Google 
Play Store ) 对 应 用 程序 访问 用 户 数 据 提供 了 一 定 的 控 
制 机 制 ， 但 对 数据 访问 的 粒度 仍然 缺乏 支持 ， 在 Google 


Play Store 中 标明 了 应 用 需要 访问 的 数据 类 型 ， 对 数据 收 
集 的 数量 和 频率 并 不 明确 ， 而 数据 的 数量 常常 是 很 关键 
的 9。 


隐私 保护 与 数据 效用 之 间 需 要 妥协 和 平衡 "…” ， 也 
要 在 技术 方案 上 构建 一 种 生态 环境 ， 在 这 种 情况 下 ， 
各 国政 府 出 台 了 一 系列 政策 法 规 。 例 如 ， 欧 洲 的 数据 保 
护 政策 General Data Protection Regulation ( GDPR ) ,已 
于 2018 年 5 月 开始 实施 。Determann 呈 讨论 了 GDPR 与 其 
他 国家 隐私 保护 规范 的 差异 。Post™" 分 析 了 Google 在 欧 
盟 (西班牙 ) 收 到 隐私 侵犯 调查 及 此 事件 带 来 的 深远 影 
响 ， 以 及 引起 欧盟 后 续 的 法 律 环境 变 化 。2017 年 6 月 1 日 
正式 实施 的 《中 华人 民 共 和 国 网 络 安全 法 》， 强 调 了 中 


制 : 一 方面 保障 用 户 隐私 可 控 而 促进 数据 交易 和 流通 ; 
男 一 方面 促进 数据 驱动 商业 模式 和 生态 健康 发 展 。 


数据 收集 作为 开发 创新 及 个 性 化 、 情 境 化 应 用 的 关 
键 环 节 ， 从 隐私 角度 来 看 ， 处 在 “法 律 灰 色 地 带 ”。 妆 


， 大 部 分 应 用 程序 只 标明 了 其 市 场 价 格 ， 而 对 收集 数 
据 的 范围 和 粒度 并 没有 明确 的 协议 。 例 如 ， 一 个 导航 软 
件 应 用 系统 可 在 用 户 不 知情 的 情况 下 ， 在 后 台 持 续 大 量 
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国境 内 网 络 运 营 者 对 所 收集 到 的 个 人 信息 所 应 承担 的 保 
护 责任 和 违规 处 罚 措施 。 但 专项 个 人 信息 保护 法 现 尚 在 
制订 中 。 


2 数据 资产 化 中 的 数据 定价 与 交易 


要 推动 从 数据 到 数据 产品 的 价值 链 ， 还 有 很 多 关键 
的 经 济 问题 需要 考虑 ， 其 中 一 个 核心 的 问题 是 数据 作为 
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资产 的 定价 问题 。 数 据 与 其 他 原材料 在 4 个 方面 有 很 大 
不 同 : 四 数据 的 使 用 不 会 带 来 数据 的 消耗 ， 数 据 的 开发 
不 是 排他 的 ， 甚 至 反而 是 利他 的 ; 人 @ 聚合 后 的 数据 比 单 
独 的 数据 更 有 价值 ， 也 应 该 具有 更 高 的 价格 ; (3) 同样 种 
类 的 数据 ， 不 同 来 源 的 数据 具有 不 同 的 价值 ， 这 点 在 医 
疗 数据 中 尤为 突出 ; @ 同样 的 数据 在 不 同 的 使 用 者 看 
来 ， 也 是 价值 各 异 。 在 这 些 特殊 的 条 件 ， 如 何 对 数据 资 
产 进行 定价 是 一 个 很 难 的 问题 ， 我 们 认为 采用 一 种 基于 
市 场 协商 的 价格 或 许 更 为 现实 可 行 。 

目前 大 部 分 应 用 程序 正在 从 以 广告 收入 为 主 的 商业 
模式 向 基于 个 人 数据 采集 的 商业 模式 过 渡 。 但 在 当前 的 
数据 收集 模式 下 ， 用 户 无 法 凭借 其 贡献 的 数据 而 获取 奖 
励 ， 这 种 模式 表面 上 可 使 应 用 程序 服务 从 中 受益 ， 然 而 
考虑 到 潜在 的 法 律 后 果 ， 实际 上 是 阻碍 了 其 商业 模式 的 
可 持续 发 展 。 由 于 用 户 数据 的 所 有 权 不 明 ， 导 致 数据 难 
以 有 效 流通 。 

非法 的 数据 交易 会 对 个 人 数据 等 高 价值 信息 的 安 
全 造成 影响 中"， 对 非法 数据 交易 的 购买 方 和 协助 方 都 应 
进行 处 罚 。 特 别 对 于 定价 来 说 ， 传 统 的 效用 价格 论 、 成 
本 价格 论 等 定价 模式 并 不 适用 ”。 人 金融 资产 的 定价 理论 
有 值得 借鉴 的 地 方 ， 然 而 供应 方 提 供 的 数据 很 难 与 数据 
需求 方 的 应 用 方向 精准 匹配 ， 供 需 错 配 的 问题 无 法 解 
决 。 另 外 ， 需 求 方 在 不 确定 某 数据 资源 是 否 能 真正 能 给 
组 织带 来 收益 情况 下 ， 很 难 给 出 一 个 较 高 的 价格 。 刘 洪 
玉 等 ”认为 在 大 数据 交易 过 程 中 ， 由 于 缺乏 足够 的 历史 
参考 ， 其 数据 资源 的 交易 价格 很 难 确 定 ， 因 此 提出 一 种 
基于 苋 标 机 制 的 鲁 宾 斯 坦 模型 ， 用 于 大 数据 交易 双方 
进行 讨价还价 ， 以 求 达 成 一 个 交易 的 均衡 价格 。Li 和 
Miklau™ 提出 了 数据 市 场 定 价 的 3 个 原则 和 定价 函数 的 基 
本 结构 。Valz” 通 过 数据 内 容 动 态 调整 定价 ; 翟 丽 丽 等 中” 
从 资产 的 期 权 价值 角度 来 评估 大 数据 资源 的 价值 ， 并 指 
出 数据 在 不 断 变化 和 更 新 ， 加 上 数据 的 非 独 占 性 等 情况 
的 出 现 ， 数 据 资产 的 价值 可 能 会 下 降 ， 最 后 综合 这 些 因 
素 构建 了 一 个 评估 模型 来 计算 数据 资产 的 价值 。 市 场 有 
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从 原材料 到 资产 一 一 数据 资产 化 的 挑战 和 思考 


助 于 数据 合理 定价 四，Iyilade 和 Vassileva ”提出 了 一 种 隐 
私 保 护 的 数据 交易 算法 ， 其 基本 思路 是 应 用 程序 之 间 通 
过 市 场 机 制 来 优化 数据 共享 。 

但 是 ， 这 些 定价 方式 都 存在 一 个 共同 的 问题 : 对 数 
据 交 易 中 的 安全 问题 和 隐私 泄露 等 有 较 大 的 担忧 ， 大 量 
数据 源 未 被 激活 ”…。 虽 然 数据 具有 明显 的 商品 特征 ， 它 
却 有 很 强 的 非 传统 商品 属性 ， 如 复制 成 本 接近 于 0、 非 排 
他 性 、 时 效 性 等 。 这 造成 了 近年 来 ,虽然 建立 了 一 些 数 
据 交易 所 (如 2017 年 关闭 的 微软 Azure DataMarket ) ,但 
数据 交易 仍 难 以 成 规模 ， 数 据 还 很 难 流 通 并 发 挥 价值 。 

有 了 定价 ， 还 需要 交易 。 数 据 资产 要 产生 价值 ， 需 
要 进行 流通 。 早 期 数据 流通 研究 是 从 数据 可 达 性 、 分 布 
式 系统 可 靠 性 等 角度 出 发 的 ”"。 然 而 ， 在 数据 收集 和 交 
易 过 程 中 始终 存在 着 “信息 不 对 称 ”: 目前 用 户 缺 乏 对 
数据 收集 的 认 知 ， 因 而 始终 处 于 弱势 。 虽 然 目 前 有 一 些 
研究 提出 基于 法 律 和 交易 的 体系 解决 方法 ， 但 缺乏 实在 
的 技术 方案 。 我 们 在 Imperial Festival 和 英国 数字 经 济 会 
议 上 的 公众 调查 所 了 解 到 ， 大 多 数 用 户 并 不 清楚 自己 究 
竟 有 多 少数 据 被 应 用 程序 收集 。 

我 们 提出 了 一 种 新 的 移动 隐私 保护 模型 一 一 PBD 模 
型 3 (Pay-by-Data ) ，PBD 将 数据 显 式 地 作为 一 种 应 用 
效能 的 支付 手段 ， 用 户 和 数据 收集 者 之 间 达 成 收集 和 反 
人 馈 的 协议 ， 通 过 保护 隐私 达到 数据 的 合理 定价 。 

(1) 在 数据 消费 者 与 数据 提供 者 之 间 引 入 数据 付费 
。DPA 以 数据 ( 隐 
私 ) 作为 计价 工具 ， 定 义 一 种 新 型 的 应 用 服务 付费 方 
式 ， 人 允许 用 户 交易 自己 的 数据 ( 隐私 ) 以 获取 服务 或 是 
其 他 激励 。DPA 详细 描述 应 用 所 访问 的 数据 类 型 、 收 集 
数据 的 频率 以 及 用 户 所 获得 的 回报 ; 并 针对 不 同 的 数据 
质量 ， 制 定 不 同 的 价格 机 制 。 因 此 微观 用 户 数据 的 收集 
是 被 数据 付费 协议 显 式 规范 的 ,减少 了 肆意 侵犯 用 户 隐 
私 的 行为 。 

(2) 通过 定制 的 Android 等 平台 ， 改 进 应 用 程序 与 底 
层 移 动 服务 之 间 的 通信 及 请 求 获取 用 户 数据 的 方式 。 用 


协议 (data pricing agreement, DPA) 
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政策 与 机 制 | 


户 数据 的 访问 由 数据 付费 认证 服务 控制 ， 提 供 了 更 细 的 
粒度 支持 。 数 据 付 费 协 议 在 基于 区 块 链 的 智能 合约 上 实 
现 ， 从 而 保证 公平 执行 和 可 追 
访问 开发 API 供 应 用 开发 使 用 。 
(3) 研究 通过 市 场 的 机 制 寻找 隐私 保护 和 数据 收 11 Viktor M S, Cukier K. Big Data: A Revolution That Will 
集 之 间 的 平衡 。 透 明 可 信和 的 数据 收集 明确 定义 用 户 的 数 
据 收 集 所 对 应 的 报酬 〈 即 资源 和 服务 ) ， 产 生 激 励 ; 并 2013. 
此 构建 一 种 数据 定价 和 交易 方法 ， 数 据 被 用 作 一 种 货 12 Petrie C. The Proper Use of the Internet: Digital Private Property. 
币 ， 用 来 购买 应 用 提供 的 服务 和 资源 ( 这 里 也 包括 现实 
货币 ) ， 通 过 有 效 的 市 场 机 制 ， 使 这 些 应 用 程序 和 用 户 13 O’Brien K J. Data-gathering via apps presents a gray legal 
之 间 达 到 定价 均衡 。 
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From Raw Materials to Assets—Challenges and Considerations on 


Data Capitalization 


WU Chao 
( Computer Network Information Center, Chinese Academy of Sciences, Beijing 100190, China ) 
Abstract “Embedded and wearable devices are becoming pervasive, with various sensors collecting user data. With the infrastructure of 
Internet and cloud computing, it is now much easir to transfer and manage these data. And with deep learning, we can fully mine the value in 
data. Nevertheless, data needs to be processed with a long workflow, from raw material to final product. Within this workflow, the economic 
factor would be the most significant force. Therefore, in this article, we discuss the issues in data capitalization. To move data from raw material 
to final product, we need to consider many aspects, including its pricing, and privacy protection. 


Keywords data capitalization, data pricing, privacy protection 
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